Risorse di un efficiente
apprendimento superficiale in AI
DIANE
RICHMOND
NOTE E NOTIZIE - Anno XXI – 27 gennaio
2024.
Testi
pubblicati sul sito www.brainmindlife.org della Società Nazionale di
Neuroscienze “Brain, Mind & Life - Italia” (BM&L-Italia). Oltre a notizie
o commenti relativi a fatti ed eventi rilevanti per la Società, la sezione
“note e notizie” presenta settimanalmente lavori neuroscientifici selezionati
fra quelli pubblicati o in corso di pubblicazione sulle maggiori riviste e il cui
argomento è oggetto di studio dei soci componenti lo staff dei recensori della Commissione
Scientifica della Società.
[Tipologia del testo: RECENSIONE]
L’ideazione iniziale delle tecniche di
apprendimento delle reti neurali artificiali prese origine dalla fenomenica
delle reti di neuroni del cervello o, meglio, dall’interpretazione schematica e
semplificata della fisiologia cerebrale che ne dava la scienza cognitiva che,
all’epoca, stava prendendo il posto della neuropsicologia sperimentale. Nel
corso dei decenni, si è avuto un notevole sviluppo di questa branca dell’AI (artificial intelligence), con l’elaborazione
di reti artificiali con un numero sempre maggiore di strati nascosti per migliorare
le prestazioni di apprendimento profondo. Ma questa evoluzione ha seguito
criteri propri e non di imitazione dell’organizzazione neurobiologica del
cervello – che peraltro presenta ancora ostacoli attualmente insormontabili per
una completa decifrazione – al punto che oggi, mettendo a confronto basi
cerebrali e artificiali dell’apprendimento, si deve constatare, come rilevato
da numerosi studiosi incluso Ido Kanter, che si tratta di “due scenari
intrinsecamente differenti”.
Sono in corso, tuttavia, studi per cercare un
riavvicinamento o, quantomeno, la comprensione della natura delle differenze
inconciliabili e, da parte di alcuni, sperimentare un cambiamento di rotta
della ricerca sulle strategie di apprendimento nell’AI.
Una delle differenze più evidenti e rilevanti fra basi
naturali e artificiali è rappresentata dal numero degli strati a feedforward
nelle reti complesse (feedforward layers). Le
architetture dell’apprendimento profondo (DL, deep learning)
tipicamente consistono in numerosi strati nascosti convoluti e pienamente
connessi (FC, fully-connected), il cui numero
può essere portato fino a centinaia. Queste architetture profonde consentono un
efficiente apprendimento controllato[1] per
complessi compiti di classificazione, reso possibile dai progressi della
potente tecnologia GPU.
Al contrario, il cervello impiega pochi strati a feedforward
perché la sua organizzazione non è concepita come quella di un elaboratore di
dati, ma è il prodotto di milioni di anni di evoluzione animale, in cui singoli
neuroni, singoli circuiti e singole reti hanno ruoli in numerose funzioni, e l’intricato
reticolo di miliardi di neuroni supportati da un numero altissimo di astrociti
che coopera sia mediante effetti di rete astrogliale, sia mediante gliotrasmissione,
crea innumerevoli vie dinamiche di trasferimento ed elaborazione dati ancora
sconosciute. Il cervello non è un elaboratore costituito da unità che operano
in serie: è un sistema di sistemi nella cui complessità sono incluse miriadi di
attività in parallelo che si integrano in modi che solo da poco tempo si
comincia a comprendere nella loro fisionomia generale. Pertanto, fa sorridere
questo giudizio espresso da esperti di AI che immaginano le vie di connessione
anatomica principali come collegamenti fra unità elettroniche per l’elaborazione
di dati cifrati con simboli alfabetici o numerici: “A dispetto dell’architettura
superficiale e di dinamiche lente e disturbate da rumore (interferenze), il
cervello può eseguire complessi compiti di classificazione”.
L’affermazione è di Ofek Tevet e colleghi coordinati da Ido Kanter, che hanno condotto
uno studio per identificare i meccanismi sottostanti l’efficiente apprendimento
superficiale del cervello che consente di eseguire compiti non banali di
classificazione con la stessa precisione del DL della AI.
(Tevet
O. et al., Efficient shallow learning mechanism as an alternative to
deep learning. Physica A: Statistical
Mechanics and its Applications 635, 129513, February 1, 2024).
La provenienza
degli autori è la seguente: Department of Physics,
Bar-Ilan University, Ramat-Gan (Israele); Ganda Interdisciplinary Brain Research Center,
Bar-Ilan University, Ramat-Gan (Israele).
Ido Kanter, Ofek Tevet e colleghi dimostrano che aumentando il numero
relativo di filtri per strato di un’architettura superficiale generalizzata, il
tasso di errori decade secondo una legge di potenza a zero. L’impiego di un
metodo quantitativo per misurare la prestazione di un singolo filtro, dimostra
che ciascun filtro identifica un numero circoscritto (cluster) di
possibili etichette di output, con rumore addizionale per etichette al
di fuori del cluster. Anche questo rumore medio per filtro decade per
una data architettura generalizzata secondo una legge di potenza con un numero
crescente di filtri per strato, formando il meccanismo sottostante di
efficiente apprendimento superficiale.
I risultati hanno trovato supporto nel training
delle generalizzate LeNet-3, VGG-5 e VGG-16 su CIFQR-100 e suggeriscono un
aumento dell’esponente della legge di potenza del rumore per architetture più
profonde.
Questo meccanismo di apprendimento superficiale –
precisano gli autori – richiede ulteriori esami quantitativi impiegando vari database
e architetture superficiali.
A commento dello studio qui recensito che chi
scrive, pur avendo notevoli limiti di competenza nel campo della AI ha apprezzato
nel suo genere, non si può non rilevare la distanza fra le conoscenze
neuroscientifiche attuali e l’idea di fisiologia delle reti neuroniche dominante
nella cultura accademica della computer science, che si rifà a modelli
ideali semplificati, ispirati all’ipotesi della “connessione punto a punto” del
sistema nervoso centrale di Roger Sperry, rivelatasi già negli anni Settanta grossolana
e inadeguata per decifrare la complessità dell’organizzazione funzionale del
cervello umano.
C’è un errore di fondo, commesso al tempo dell’Hixon Symposium[2] (1948) che
vide la nascita ufficiale della cognitive science e della cibernetica,
fornendo il contributo di alcuni fra i massimi esperti al mondo di discipline che
andavano dalla matematica alla biologia, sul tema dei meccanismi cerebrali del
comportamento. Uno degli scopi era quello di creare dei presupposti teorici per
un approccio interdisciplinare al problema dell’intelligenza. L’errore di fondo
consistette nell’assumere la prospettiva dell’ingegnere che deve realizzare un
dispositivo intelligente per interpretare il significato funzionale delle
connessioni cerebrali. Assumendo questo criterio, ad esempio nel considerare le
connessioni che vanno dalla retina alla corteccia, si isolavano le parti
coerenti con un’elaborazione di dati retinici da parte di nuclei intermedi (tubercoli
quadrigemini superiori, corpi genicolati laterali) e aree visive della
corteccia, ignorando la realtà delle innumerevoli e indefinite interconnessioni
fra vie e sistemi. Si dava per implicito che la classificazione percettiva
visiva avvenisse grazie unicamente alle principali connessioni in sequenza individuate
in quel sistema. Più in generale, il controllo specializzato corticale aveva
suggerito un’organizzazione funzionale del cervello per parti anatomo-funzionali
distinte[3], in cui la
cognizione era distinta, e in parte separata, dalla percezione e dal
linguaggio. Se ancora oggi gli innumerevoli aggregati neuronici che formano
circuiti locali specializzati possono essere considerati come elementi
modulari, il concetto di modulo non è più concepito ingenuamente come il
processore di una macrofunzione, ma come sede di processi il cui senso si
compie nelle interazioni di rete.
La complessità dell’elaborazione parallela cerebrale
non è stata ancora decifrata, ma per il momento si può affermare che
sicuramente contribuisce all’azione delle reti globali alla base della
coscienza, e il suo studio ha definitivamente allontanato l’idea di una
ripartizione semplice dei compiti. Oggi sappiamo, ad esempio, che una classificazione
di immagini di animali di specie diverse da quella dell’animale studiato ha
luogo, con la percezione, anche all’interno del sistema dell’amigdala[4], associata
in passato esclusivamente alle emozioni e a risposte autonomiche. Ma, prima delle
categorizzazioni multiple e parallele, o della rielaborazione in tanti sistemi
neuronici cerebrali delle informazioni necessarie a distinguere e riconoscere
per categoria, dobbiamo considerare che i sistemi neuronici della vista ricevono
ed elaborano stimoli acustici e i sistemi neuronici dell’udito ricevono ed
elaborano stimoli visivi.
Per questo, prima si è detto che fa sorridere il
giudizio espresso da Ofek Tevet,
Ido Kanter e colleghi, in quanto costoro immaginano erroneamente che il cervello
adotti il criterio semplice e schematico delle reti artificiali superficiali e
abbia lo scopo di computazione dell’AI, non comprendendo che ciò che loro
considerano “rumore” di disturbo è “segnale” per il fine neurobiologico, che
include il compito cognitivo ma consiste nella gestione di uno spettro ampio di
informazioni provenienti dall’ambiente, continuamente ridistribuite e rielaborate
da tutte le reti interconnesse, che nutrono momento per momento la coscienza
secondo criteri che lentamente e faticosamente si stanno scoprendo.
L’autrice della nota ringrazia la dottoressa Isabella Floriani per la correzione della bozza e
invita alla lettura delle recensioni di argomento connesso che appaiono nella sezione “NOTE E NOTIZIE” del
sito (utilizzare il motore interno nella pagina “CERCA”).
Diane
Richmond
BM&L-27 gennaio 2024
________________________________________________________________________________
La Società Nazionale
di Neuroscienze BM&L-Italia, affiliata alla International Society of Neuroscience,
è registrata presso l’Agenzia delle Entrate di Firenze, Ufficio Firenze 1, in data
16 gennaio 2003 con codice fiscale 94098840484, come organizzazione scientifica
e culturale non-profit.
[1] Nel gergo dell’AI è detto Machine
Learning Supervised, italianizzato in “Machine
Learning Supervisionato” e si riferisce a un sistema istruito usando una base
di dati costituita da esempi e modelli. È detto “supervised” perché l’apprendimento della macchina dipende
dal supervisore che sceglie la base-dati di esempi e modelli che costituisce il
training set. A sua volta, il training set può essere descritto
come una raccolta di n esempi, ciascuno dei quali è indicato mediante un
vettore xi di caratteristiche j (features) e di etichetta yi (label) che indica la risposta
corretta. La base dati permette al sistema di imparare a catalogare
automaticamente i vari casi, o risolvere un problema analizzandone i dati.
[2] Nel settembre del 1948 nel campus
del California Institute of Technology si tenne uno storico simposio
patrocinato dallo Hixon Fund dal titolo: “Meccanismi
cerebrali del comportamento”. I lavori furono aperti dal matematico John von
Neumann che propose un impressionante e inedito parallelo tra computer e
cervello; seguì Warren McCulloch, matematico e
neurofisiologo che, nella sua relazione dal provocatorio titolo “Perché la
mente è nella testa”, sfruttando dei paragoni fra “dispositivi logici” e
cervello sfatava luoghi comuni e proponeva nuove idee e riflessioni su come il
cervello elabora l’informazione. L’intervento che riscosse il maggior successo
fu quello del biologo Karl Lashley, già noto per l’ipotesi
dell’azione di massa di neuroni corticali del topo come base della
memoria, il quale parlò come neuropsicologo dell’ordine seriale del
comportamento, sferrando un attacco senza precedenti al comportamentismo e
demolendone di fatto le argomentazioni che lo avevano legittimato. (v.
Cerebral Mechanisms in Behavior: The Hixon Symposium. Lloyd A. Jeffress,
Wiley, New York 1951, Chapman & Hall, London 1951; si veda anche: Howard
Gardner, La nuova scienza della mente – Storia della rivoluzione cognitiva,
pp. 22-23, Feltrinelli, Milano 1988).
[3] Una visione che diede poi
origine alla teoria dell’organizzazione modulare sostenuta inizialmente da
Michael Gazzaniga e colleghi del team che aveva condotto gli studi sui
pazienti con cervello diviso, e poi divenuta una delle teorie più seguite prima
dell’affermazione della teoria della selezione dei gruppi neuronici (TSGN)
di Gerald Edelman. Furono sviluppati vari costrutti ipotetici sul modello della
“mente modulare”; il principale considerava l’insieme dei moduli
localizzati nell’emisfero destro e nell’emisfero sinistro come la base
automatica (inconscia) dell’elaborazione cognitiva e il modulo del
linguaggio (in oltre il 90% dei casi nell’emisfero sinistro), in parte
coincidente con la coscienza stessa, come una sorta di coordinatore degli altri
moduli e beneficiario degli esiti della loro elaborazione automatica.
[4] L’amigdala è un nucleo situato
nella profondità dorso-mediale del lobo temporale, costituito da undici piccoli aggregati nucleari studiati
soprattutto per la reazione e la memoria della paura.